FakeQuantWithMinMaxVars
对输入数据执行逐元素伪量化运算。该算子通过给定的最小/最大值(min_val/max_val)计算缩放因子(scale)和零点(zero_point),将浮点输入模拟量化到指定的整数范围(quant_min/quant_max),然后再将其反量化回浮点数。
\[scale = \frac{max\_val - min\_val}{quant\_max - quant\_min}\]
\[output_i = \left( \text{round} \left( \frac{\text{clamp}(input_i, nudge\_min, nudge\_max) - nudge\_min}{scale} \right) \right) \times scale + nudge\_min\]
- 输入:
src - 输入数据地址。
min_val - 浮点范围的最小值。
max_val - 浮点范围的最大值。
length - 计算长度。
quant_min - 量化后的整数最小值(例如 0 或 -128)。
quant_max - 量化后的整数最大值(例如 255 或 127)。
symmetric - 是否使用对称量化(bool 类型)。若为 true,则范围调整为关于 0 对称。
core_mask(int, 可选) - 核掩码(仅适用于共享存储版本)。
- 输出:
output - 伪量化后的计算结果地址。
- 支持平台:
FT78NEMT7004
备注
FT78NE 支持:fp32 (fp)
MT7004 支持:fp16 (hp), fp32 (fp)
该算子内部包含 “Nudge” 逻辑,即会自动调整零点(Zero Point)使其为整数,并根据调整后的零点重新计算实际使用的浮点范围(nudge_min/nudge_max)。
共享存储版本:
-
void fp_fake_quant_with_min_max_vars_s(float *src, float min_val, float max_val, float *output, int length, int quant_min, int quant_max, bool symmetric, int core_mask)
-
void hp_fake_quant_with_min_max_vars_s(half *src, half min_val, half max_val, half *output, int length, int quant_min, int quant_max, bool symmetric, int core_mask)
C调用示例:
1// FT78NE 示例:fp32 类型共享存储多核计算 2#include <stdio.h> 3#include <stdbool.h> 4#include "78NE/utils.h" 5 6int main(int argc, char* argv[]) { 7 float *input = (float *)0xA0000000; 8 float *output = (float *)0xB0000000; 9 float min_v = -10.0f; 10 float max_v = 10.0f; 11 int length = 960001; 12 int core_mask = 0b1011; 13 fp_fake_quant_with_min_max_vars_s(input, min_v, max_v, output, length, 0, 255, false, core_mask); 14 return 0; 15}
私有存储版本:
-
void fp_fake_quant_with_min_max_vars_p(float *src, float min_val, float max_val, float *output, int length, int quant_min, int quant_max, bool symmetric)
-
void hp_fake_quant_with_min_max_vars_p(half *src, half min_val, half max_val, half *output, int length, int quant_min, int quant_max, bool symmetric)
C调用示例:
1// MT7004 示例:fp16 (half) 类型私有存储单核计算 2#include <stdio.h> 3#include <stdbool.h> 4 5int main(int argc, char* argv[]) { 6 half *input = (half *)0x10000000; 7 half *output = (half *)0x10001000; 8 half min_v = (half)-5.0f; 9 half max_v = (half)5.0f; 10 int length = 1024; 11 hp_fake_quant_with_min_max_vars_p(input, min_v, max_v, output, length, 0, 255, true); 12 return 0; 13}